建造智慧機器幫助我們瞭解我們的大腦如何運作

設計像人類一樣思考的機器可以深入瞭解智慧本身

Design of a blue tech-like background with a brain in the center.

Kenn Brown/MondoWorks

工智慧的夢想從來不僅僅是製造一個擊敗特級大師的國際象棋引擎或一個試圖拆散婚姻的聊天機器人。 它的目標一直是讓我們正視自身的智慧,以便我們能夠更好地瞭解自己。 研究人員追求的不僅僅是人工智慧,而是通用人工智慧(AGI)——一種具有類人適應性和創造力的系統。

大型語言模型已經獲得了比大多數研究人員預期的更強的解決問題的能力。 但是,它們仍然會犯愚蠢的錯誤,並且缺乏開放式學習的能力:一旦它們接受了書籍、部落格和其他材料的訓練,它們的知識庫就會被凍結。 它們無法透過人工智慧公司 SingularityNET 的 Ben Goertzel 所謂的“機器人大學生測試”:你無法讓它們上大學(甚至幼兒園也不行)。

這些系統明確解決的通用人工智慧的一個部分是語言。 它們擁有專家所說的形式能力:它們可以解析你給它們的任何句子,即使句子是零散的或俚語化的,並以可以稱為維基百科標準英語的方式回應。 但是,他們在其餘的思考方面都失敗了——即幫助我們應對日常生活的一切。 “我們不應該期望它們能夠思考,”麻省理工學院的神經科學家南希·坎維舍說。“它們是語言處理器。” 它們熟練地操縱文字,但除了它們吸收的文字之外,無法接觸到現實。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業: 訂閱。 透過購買訂閱,您正在幫助確保未來能夠繼續刊登關於塑造我們當今世界的發現和思想的具有影響力的報道。


在某種程度上,大型語言模型僅模仿大腦的語言能力,而沒有感知、記憶、導航、社會判斷等能力。 我們的灰質執行著令人眼花繚亂的重疊功能混合,其中一些功能廣泛分佈於整個大腦,另一些則更區域性化。 語言區域中風的人可能無法說話,但仍然可以像以前一樣進行數字加法、創作交響曲、下棋和透過手勢進行交流。 人工智慧開發人員正在將這種模組化融入到他們的系統中,以期使其更智慧。

Generative Pre-trained Transformer (GPT) 的創造者 OpenAI 允許付費使用者選擇外掛來處理數學、網際網路搜尋和其他型別的查詢。 每個外掛都呼叫一些與其專業相關的外部知識庫。 此外,對於使用者來說是不可見的,核心語言系統本身可能在某種意義上是模組化的。 OpenAI 對規範保密,但許多人工智慧研究人員推測 GPT 由多達 16 個獨立的神經網路或“專家”組成,它們彙集對查詢的答案——儘管它們如何分工尚不清楚。 去年 12 月,總部位於巴黎的人工智慧公司 Mistral 釋出了這種“專家混合”架構的開源版本,引起了轟動。 這種簡單形式的模組化的主要優點是其計算效率:訓練和執行 16 個較小的網路比單個大型網路更容易。“讓我們兩全其美,”愛丁堡大學的人工智慧研究員埃多拉多·龐蒂說。“讓我們獲得一個具有大量引數的系統,同時保持小得多的模型的效率。”

但是模組化也帶來了權衡。 沒有人確定大腦區域如何協同工作以創造一個連貫的自我,更不用說機器如何模仿它了。 “資訊如何從語言系統傳遞到邏輯推理系統或社會推理系統?” 佐治亞理工學院的神經科學家安娜·伊萬諾娃想知道。“這仍然是一個懸而未決的問題。”

一種具有啟發性的假設是,意識是共同的基礎。 根據這種被稱為全域性工作空間理論(GWT)的觀點,意識對於大腦來說就像員工會議對於公司一樣:模組可以在其中共享資訊並尋求幫助的地方。 GWT 遠非唯一的意識理論,但它對人工智慧研究人員特別感興趣,因為它推測意識是高層智慧不可或缺的一部分。 為了完成簡單或排練過的任務,大腦可以自動駕駛,但新穎或複雜的任務(那些超出單個模組範圍的任務)需要我們意識到自己在做什麼。

Goertzel 和其他人已將工作空間整合到他們的人工智慧系統中。 “我認為全域性工作空間模型的核心思想將以許多不同的形式出現,”他說。 在設計該模型的電子表示形式時,研究人員並不是要製造有意識的機器; 相反,他們只是在複製特定意識理論的硬體,以試圖實現類人智慧。

他們會不經意間創造出一個有感覺和動機的有情生物嗎? 這是可以想象的,儘管即使是 GWT 的發明者,加利福尼亞州拉霍亞神經科學研究所的 Bernard Baars 也認為這是不可能的。 “有意識的計算是一種毫無證據的假設,”他說。 但是,如果開發人員確實成功構建了 AGI,他們就可以為智慧本身的結構和過程提供重要的見解。

長期以來,GWT 一直是神經科學和人工智慧研究如何相互作用的案例研究。 這個想法可以追溯到 20 世紀 50 年代計算機科學家奧利弗·塞爾弗裡奇提出的影像識別系統“Pandemonium”。 他將系統的模組想象成在彌爾頓式的地獄景象中尖叫著引起注意的惡魔。 他的同時代人艾倫·紐厄爾更喜歡更沉穩的隱喻,即數學家們聚集在黑板周圍共同解決問題。 這些想法被認知心理學家採納。 在 20 世紀 80 年代,巴爾斯提出了 GWT 作為人類意識的理論。 “我的整個職業生涯都從人工智慧中學到了很多東西,主要是因為它是我擁有的唯一可行的理論平臺,”他說。

巴爾斯啟發了孟菲斯大學的計算機科學家斯坦利·富蘭克林嘗試製造一臺有意識的計算機。 無論富蘭克林的機器是否真的有意識——巴爾斯和富蘭克林本人對此都表示懷疑——它至少再現了人類心理學的各種怪癖。 例如,當它的注意力從一件事轉移到另一件事時,它會遺漏資訊,因此它和人類一樣不擅長多工處理。 從 20 世紀 90 年代開始,巴黎法蘭西學院的神經科學家 Stanislas Dehaene 和 Jean-Pierre Changeux 研究了哪種型別的神經元佈線可以實現工作空間。

在這種方案中,大腦模組主要獨立執行,但大約每十分之一秒,它們就會舉行一次員工會議。 這是一場有組織的叫喊比賽。 每個模組都有一些資訊要提供,並且它對該資訊越有信心——例如,刺激與預期的匹配程度越高——它喊得越大聲。 一旦一個模組勝出,其他模組就會安靜片刻,獲勝者將其資訊放入一組公共變數中:工作空間。 其他模組可能會或可能不會發現該資訊有用; 每個模組都必須自行判斷。 “你會得到這種有趣的子代理之間合作與競爭的過程,每個子代理都掌握著解決方案的一小部分,”巴爾斯說。

工作空間不僅允許模組彼此通訊,而且還提供了一個論壇,即使資訊不再呈現給感官,模組也可以在此論壇中集體思考資訊。 “你可以擁有一些現實元素——也許是一種轉瞬即逝的感覺,它消失了,但在你的工作空間中,它會繼續迴響,”德海恩說。 這種審議能力對於解決涉及多個步驟或持續較長時間的問題至關重要。 德海恩進行過心理學實驗,在實驗中他給實驗室的人們提出了這樣的問題,他發現他們必須有意識地思考這些問題。

如果這個系統聽起來像無政府主義,那就對了。 它取消了在模組之間委派任務的老闆,因為委派很難做好。 在數學中,委派——或在不同的參與者之間分配責任以實現最佳效能——屬於所謂的 NP-hard 問題的範疇,這些問題可能非常耗時才能解決。 在許多方法中,例如 OpenAI 認為使用的專家混合架構,一個“門控”網路分配任務,但它必須與各個模組一起訓練,並且訓練過程可能會崩潰。 首先,它遭受了龐蒂所描述的“雞和蛋問題”:因為模組依賴於路由,而路由依賴於模組,所以訓練可能會陷入迴圈。 即使訓練成功,路由機制也是一個黑匣子,其工作原理是不透明的。

2021 年,卡內基梅隆大學的數學家和榮譽退休教授曼努埃爾·布魯姆和萊諾爾·布魯姆研究了全域性工作空間中爭奪注意力的戰鬥細節。 他們包含了一種機制,以確保模組不會誇大它們帶來的資訊的信心,從而防止少數自吹自擂者接管。 布魯姆夫婦(已婚)還建議,模組可以開發直接互連以完全繞過工作空間。 例如,這些側面連結可以解釋當我們學習騎腳踏車或演奏樂器時會發生什麼。 一旦模組共同弄清楚它們中的哪些需要做什麼,它們就會使任務離線。“它將透過短期記憶的處理轉變為無意識的處理,”萊諾爾·布魯姆說。

有意識的注意力是一種稀缺資源。 工作空間沒有太多空間容納資訊,因此獲勝的模組必須非常有選擇性地選擇其傳遞給其他模組的內容。 這聽起來像是一個設計缺陷。 “為什麼大腦會限制我們同時思考多少事情?” 蒙特利爾大學的人工智慧研究員約書亞·本吉奧問道。 但他認為這種約束是一件好事:它強制執行認知紀律。 由於無法跟蹤世界的所有複雜性,我們的大腦必須識別出構成世界基礎的簡單規則。 “這種瓶頸迫使我們對世界的運作方式產生理解,”他說。

對於本吉奧來說,這就是 GWT 對人工智慧的重要教訓:今天的人工神經網路過於強大,以至於適得其反。 它們擁有數十億或數萬億個引數,足以吸收網際網路的大量資訊,但往往會陷入細節,無法從它們接觸到的資訊中提取更大的教訓。 如果它們龐大的知識庫必須透過一個狹窄的漏斗,有點像我們有意識的頭腦的運作方式,它們可能會做得更好。

本吉奧將類似意識的瓶頸納入人工智慧系統的努力在他開始考慮 GWT 之前就開始了。 在 2010 年代初期,本吉奧和他的同事們對我們的大腦如何有選擇地專注於一條資訊並暫時阻止其他一切印象深刻,他們在神經網路中構建了一個類似的過濾器。 例如,當 GPT 等語言模型遇到代詞時,它需要找到先行詞。 它透過突出顯示附近的名詞並使其他詞性變灰來實現這一點。 實際上,它“注意”理解文字所需的關鍵詞。 代詞也可能與形容詞、動詞等相關聯。 網路的各個部分可以同時關注不同的詞語關係。

但本吉奧發現,這種注意力機制帶來了一個微妙的問題。 假設網路完全忽略了一些單詞,它會透過為與這些單詞對應的計算變數分配零值來做到這一點。 如此突然的變化會給訓練網路的標準程式帶來麻煩。 該程式稱為反向傳播,涉及將網路的輸出追溯到產生它的計算,這樣如果輸出錯誤,您就可以找出原因。 但是你無法透過突然的變化來追溯。

因此,本吉奧和其他人設計了一種“軟注意力機制”,網路在這種機制中是有選擇性的,但又不過分。 它為各種選項分配數值權重,例如代詞可能與哪些詞相關。 儘管有些詞的權重高於其他詞,但所有詞都保留在遊戲中; 網路永遠不會做出艱難的選擇。 “你得到 80% 的這個,20% 的那個,並且因為這些注意力權重是連續的,你實際上可以進行 [微積分] 並應用反向傳播,”本吉奧說。 這種軟注意力機制是“transformer”架構(GPT 中的“T”)的關鍵創新。

近年來,本吉奧重新審視了這種方法,以建立一個更嚴格的瓶頸,他認為如果網路要實現接近真正理解的目標,這很重要。 真正的工作空間必須做出艱難的選擇——它沒有空間來跟蹤所有選項。 2021 年,本吉奧和他的同事設計了一個“生成流”網路,該網路根據注意力權重確定的機率定期選擇可用選項之一。 他沒有僅僅依靠反向傳播,而是訓練網路在正向或反向方向上工作。 這樣,即使發生突然的變化,它也可以返回來修復任何錯誤。 在各種實驗中,本吉奧表明,該系統開發了輸入資料的高階表示,這些表示與我們自己的大腦獲得的表示平行。

實施全域性工作空間的另一個挑戰是過度專業化。 就像不同大學部門的教授一樣,大腦的各個模組創造出彼此難以理解的行話。 視覺區域提出了抽象概念,使其能夠處理來自眼睛的輸入。 聽覺模組開發了適合內耳振動的表示。 那麼它們是如何溝通的呢? 他們必須找到某種通用語,或者亞里士多德所說的常識——該術語的最初含義。 這種需求在科技公司一直在引入的“多模態”網路中尤其迫切,這些網路將文字與影像和其他形式的資料相結合。

在 Dehaene 和 Changeux 版本的 GWT 中,模組透過神經元連線,這些神經元調整其突觸以將傳入資料轉換為本地語言。 “他們將[輸入]轉換為他們自己的程式碼,”德海恩說。 但細節很模糊。 事實上,他希望試圖為人工神經網路解決類似問題的人工智慧研究人員能夠提供一些線索。 “工作空間更像是一個想法; 它幾乎不能算作理論。 我們正在努力使其成為一種理論,但它仍然很模糊——而且工程師們擁有將它變成一個工作系統的非凡才能,”他說。

2021 年,神經科學家兼東京人工智慧公司 Araya 創始人金井良太,以及另一位涉足人工智慧的神經科學家、法國圖盧茲大學的 Rufin VanRullen,提出了一種讓人工神經網路執行翻譯的方法。 他們的靈感來自谷歌翻譯等語言翻譯系統。 這些系統是迄今為止人工智慧最令人印象深刻的成就之一。 他們可以完成他們的工作,而無需被告知,例如,英語中的“love”與法語中的“amour”含義相同。 相反,他們孤立地學習每種語言,然後透過他們的掌握,推斷出哪個詞在法語中扮演著與英語中的“love”相同的角色。

假設你用英語和法語訓練兩個神經網路。 每個網路都收集了各自語言的結構,並開發了一種稱為潛在空間的內部表示。 本質上,它是一個詞雲:一種語言中所有詞語關聯的地圖,透過將相似的詞語彼此靠近放置,而不相關的詞語放置得更遠來構建。 雲有一個獨特的形狀。 事實上,這兩種語言的形狀相同,因為儘管它們存在所有差異,但它們最終都指向同一個世界。 你所需要做的就是旋轉英語和法語詞雲,直到它們對齊。 你會發現“love”與“amour”對齊。“在沒有字典的情況下,透過檢視嵌入在每種語言的潛在空間中的所有單詞的星座,你只需要找到正確的旋轉來對齊所有點,”金井說。

因為該程式可以應用於整個段落以及單個單詞,所以它可以處理細微的含義差異以及在另一種語言中沒有直接對應詞的單詞。 這種方法的一個版本可以在不相關的語言(如英語和中文)之間進行翻譯。 它甚至可能適用於動物交流

VanRullen 和金井認為,此程式不僅可以在語言之間進行翻譯,還可以在不同的感官和描述模式之間進行翻譯。 “你可以透過獨立訓練影像處理系統和語言處理系統來建立這樣一個系統,然後實際上你可以透過對齊它們的潛在空間將它們組合在一起,”金井說。 與語言一樣,翻譯之所以成為可能,是因為這些系統基本上都指向同一個世界。 這種洞察力正是德海恩所希望的:人工智慧研究如何深入瞭解大腦運作方式的一個例子。 “神經科學家從未考慮過對齊潛在空間的這種可能性,”金井說。

為了瞭解這些原則如何付諸實踐,金井與現任職於微軟的 Arthur Juliani 以及 Araya 的笹井俊太郎合作,研究了 Google DeepMind 於 2021 年釋出的 Perceiver 模型。 它旨在將文字、影像、音訊和其他資料融合到單個通用潛在空間中; 2022 年,谷歌將其整合到一個為 YouTube Shorts 自動編寫描述的系統中。 Araya 團隊進行了一系列實驗來探測 Perceiver 的工作原理,發現雖然它並非刻意設計為全域性工作空間,但它具有全域性工作空間的特徵:獨立模組、在模組之間進行選擇的過程以及工作記憶——工作空間本身。

工作空間式思想的一個特別有趣的實現是《AI People》,這是一款即將推出的類似 Sims 的遊戲,由總部位於布拉格的人工智慧公司 Good-AI 建立。 我去年夏天看到的版本設定在一個監獄院子裡,裡面擠滿了罪犯、腐敗的獄警和認真的精神科醫生,但該公司也計劃推出更和平的場景。 該遊戲使用 GPT 作為角色的“大腦”。 它不僅控制他們的對話,還控制他們的行為和情緒,使他們具有一定的心理深度; 該系統跟蹤角色是憤怒、悲傷還是焦慮,並相應地選擇其行動。 開發人員添加了其他模組——包括以短期記憶形式存在的全域性工作空間——以賦予角色一致的心理,並讓他們在遊戲環境中採取行動。“這裡的目標是將大型語言模型用作引擎,因為它非常好,然後在它周圍構建長期記憶和某種認知架構,”GoodAI 創始人 Marek Rosa 說。

人工智慧領域一項潛在的突破性進展來自 Meta 的研究員 Yann LeCun。 儘管他沒有直接引用全域性工作空間作為靈感,但他在挑戰生成模型(GPT 中的“G”)目前的霸權時,透過自己的道路得出了許多相同的想法。“我反對目前在人工智慧/機器學習社群中不幸非常流行的一些事物,”LeCun 說。“我告訴人們:放棄生成模型。”

生成神經網路之所以如此命名,是因為它們根據接觸到的內容生成新的文字和影像。 為了做到這一點,他們必須對細節一絲不苟:他們必須知道如何拼寫句子中的每個單詞以及在影像中放置每個畫素。 但是,如果說智慧有什麼的話,那就是有選擇地忽略細節。 因此,LeCun 提倡研究人員回到現在不流行的“判別式”神經網路技術,例如影像識別中使用的那些技術,之所以如此稱呼,是因為它們可以感知輸入之間的差異——例如,狗與貓的圖片。 這樣的網路不構建自己的影像,而只是處理現有影像以分配標籤。

LeCun 開發了一種特殊的訓練方案,使判別式網路能夠提取文字、影像和其他資料的基本特徵。 它可能無法自動完成句子,但它建立了抽象表示,LeCun 希望這些表示類似於我們自己大腦中的表示。 例如,如果您輸入一段汽車在道路上行駛的影片,則表示應捕獲其品牌、型號、顏色、位置和速度,同時省略瀝青路面上的顛簸、水坑上的漣漪、路邊草葉上的閃光——任何我們的頭腦會忽略為不重要的東西,除非我們專門關注它。 “所有這些不相關的細節都被消除了,”他說。

這些簡化的表示形式本身並沒有用處,但它們使一系列認知功能成為可能,這些功能對於 AGI 至關重要。 LeCun 將判別式網路嵌入到一個更大的系統中,使其成為類腦架構的一個模組,該架構包括 GWT 的關鍵特徵,例如短期記憶和一個“配置器”,用於協調模組並確定工作流程。 例如,該系統可以計劃。“我從心理學中已知的非常基本的事物中獲得了很大的啟發,”LeCun 說。 正如人腦可以進行思想實驗,想象某人在不同情況下的感受一樣,配置器將多次執行判別式網路,遍歷假設行動列表,以找到將實現預期結果的行動。

LeCun 說,他通常傾向於避免對意識得出結論,但他提出了他所謂的“民間理論”,即意識是配置器的工作,這在他的模型中起著與巴爾斯理論中的工作空間大致相同的角色。

如果研究人員成功地在人工智慧系統中構建了一個真正的工作空間,那會使它們有意識嗎? 德海恩認為會,至少如果與自我監控能力相結合。 但巴爾斯對此表示懷疑,部分原因是他仍然不太相信自己的理論。“我一直在懷疑 GWT 是否真的那麼好,”他說。 在他看來,意識是一種生物功能,是生物體構成的特有功能。 富蘭克林在幾年前我採訪他時也表達了類似的懷疑。(他於去年去世。)他認為,全域性工作空間是進化對身體需求的回答。 透過意識,大腦從經驗中學習並快速解決複雜的生存問題。 他認為,這些能力與人工智慧通常應用的問題型別無關。“你必須擁有一個具有真正思想和控制結構的自主代理,”他告訴我。“這個代理必須有一種生活——這並不意味著它不能是機器人,但它必須經歷某種發展。 它不會完全成熟地來到這個世界。”

英國蘇塞克斯大學的神經科學家 Anil Seth 同意這些觀點。“意識與聰明無關,”他說。“它同樣與活著有關。 無論通用人工智慧有多聰明,如果它們不是活著的,就不太可能有意識。”

Seth 沒有認可 GWT,而是贊同一種稱為預測處理的意識理論,根據該理論,有意識的生物試圖預測將要發生在它身上的事情,以便做好準備。“理解有意識的自我始於理解身體控制的預測模型,”他說。 Seth 還研究了整合資訊理論,該理論將意識與大腦的複雜網路結構聯絡起來,而不是大腦的功能。 根據該理論,意識不是智慧不可或缺的一部分,而可能是出於生物效率的原因而產生的。

目前,人工智慧是一個富含思想的領域,工程師們已經有很多線索可以跟進,而無需從神經科學中匯入更多內容。“他們做得非常出色,”哥倫比亞大學的神經科學家尼古拉斯·克里格斯科特指出。 但大腦仍然是廣義智慧的存在證明,並且就目前而言,是大人工智慧研究人員擁有的最佳模型。“人腦有一些工程學尚未征服的訣竅,”克里格斯科特說。

在過去的幾十年裡,對 AGI 的探索教會了我們很多關於我們自身智慧的知識。 我們現在意識到,我們認為容易的任務,例如視覺識別,在計算上要求很高,而我們認為困難的事情,例如數學和國際象棋,實際上是容易的。 我們也意識到,大腦幾乎不需要先天知識; 它們透過經驗學習幾乎所有需要知道的東西。 現在,透過模組化的重要性,我們正在證實古老的智慧,即不存在任何一種叫做智慧的東西。 它是一個能力工具箱——從處理抽象概念到駕馭社會複雜性,再到適應視覺和聲音。 正如 Goertzel 指出的那樣,透過混合和匹配這些不同的技能,我們的大腦可以在我們從未遇到過的領域取得勝利。 我們創造了新的音樂流派,並解決了早期幾代人甚至無法提出的科學難題。 我們步入未知——總有一天,我們的人工堂兄弟姐妹可能會與我們一起邁出這一步。

編者注(2024 年 3 月 20 日):本文在釋出後進行了編輯,以更正南希·坎維舍和安娜·伊萬諾娃的隸屬關係。

© .